智能论文笔记

这项研究建议使用生成模型（GAN）来增强欧洲裔欧洲裔数据集用于土地使用和土地覆盖（LULC）分类任务。我们使用DCGAN和WGAN-GP为数据集中的每个类生成图像。然后，我们探讨了在每种情况下将原始数据集增加约10％的效果对模型性能。GAN体系结构的选择似乎对模型性能没有明显的影响。然而，几何增强和GAN生成图像的结合改善了基线结果。我们的研究表明，GANS的增强可以改善卫星图像上深层分类模型的普遍性。

translated by 谷歌翻译

A Few Thousand Translations Go a Long Way! Leveraging Pre-trained Models for African News Translation

David Ifeoluwa Adelani , Jesujoba Oluwadara Alabi , Angela Fan , Julia Kreutzer , Xiaoyu Shen , Machel Reid , Dana Ruiter , Dietrich Klakow , Peter Nabende , Ernie Chang

分类：自然语言处理

2022-05-04

语言模型预训练的最新进展利用大规模数据集创建多语言模型。但是，这些数据集中大多遗漏了低资源语言。这主要是因为网络上没有很好地表示口语，因此被排除在用于创建数据集的大规模爬网中。此外，这些模型的下游用户仅限于最初选择用于预训练的语言的选择。这项工作调查了如何最佳利用现有的预培训模型来为16种非洲语言创建低资源翻译系统。我们关注两个问题：1）如何将预训练的模型用于初始预培训中未包含的语言？ 2）生成的翻译模型如何有效地转移到新域？为了回答这些问题，我们创建了一个新的非洲新闻语料库，涵盖16种语言，其中8种语言不属于任何现有评估数据集的一部分。我们证明，将两种语言转移到其他语言和其他领域的最有效策略是，以少量的高质量翻译数据微调大型预训练模型。

translated by 谷歌翻译